MaisConhecer - Pesquisadores do MIT ensinam modelos de IA a interpretar gráficos

Pesquisadores do MIT ensinam modelos de IA a interpretar gráficos

O novo conjunto de dados de treinamento ChartNet pode melhorar a precisão dos modelos de visão e linguagem que ajudam a analisar tendências de negócios ou a interpretar dados científicos.

Para acelerar e aprimorar a tomada de decisões em um mercado global dinâmico, as empresas podem implantar modelos generativos de inteligência artificial para ajudar a resumir e interpretar os gráficos que frequentemente compõem os resumos de mercado e os relatórios financeiros.

Mas mesmo os modelos de visão-linguagem mais recentes às vezes têm dificuldades com essa tarefa, já que ela exige que o modelo integre compreensão visual, numérica e linguística. Uma empresa que investe em um modelo de última geração ainda pode receber informações imprecisas ou incompletas.

Para suprir essa lacuna de desempenho, pesquisadores do MIT e do Laboratório de Pesquisa em Computação MIT-IBM desenvolveram um recurso multifacetado para usuários de IA, projetado especificamente para ensinar modelos de visão-linguagem (VLMs) a interpretar gráficos de forma eficaz.

Eles utilizaram um método inovador de geração de dados para construir um conjunto de dados de última geração que inclui mais de um milhão de gráficos variados. O conjunto de dados também codifica muitos componentes visuais, linguísticos e numéricos de cada imagem do gráfico, o que permite que os modelos raciocinem de forma robusta sobre as informações contidas em um gráfico.

Os pesquisadores usaram esse conjunto de dados, chamado ChartNet , para treinar uma série de VLMs de código aberto. Muitos desses modelos menores superaram significativamente modelos comerciais, ordens de magnitude maiores, em tarefas como extração de dados e sumarização de gráficos.

Ao permitir que modelos de código aberto superem seus equivalentes comerciais, o ChartNet pode possibilitar que pequenas empresas com orçamentos limitados utilizem IA com mais facilidade. O conjunto de dados de código aberto pode ser usado para aprimorar as capacidades de modelos de IA em tarefas como análise de tendências de mercado e interpretação de dados científicos.

“Desenvolvemos o ChartNet para ser uma solução completa para a compreensão de gráficos, abrangendo basicamente tudo o que um modelo de IA e um profissional que esteja treinando esse modelo possam precisar. Esperamos que nosso trabalho motive pesquisadores a alcançarem desempenho de ponta com modelos menores que não exijam quantidades infinitas de computação”, diz Jovana Kondic, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) do MIT e autora principal de um artigo sobre o ChartNet .

Ela é acompanhada no artigo por muitos coautores do MIT, do Laboratório de Pesquisa em Computação MIT-IBM e da IBM Research, incluindo Pengyuan Li, pesquisador da IBM Research; Dhiraj Joshi, cientista sênior da IBM Research; Isaac Sanchez, engenheiro de software da IBM Research; Aude Oliva, diretora de engajamento estratégico com a indústria no MIT Schwarzman College of Computing, diretora do Laboratório de Pesquisa em Computação MIT-IBM do MIT e cientista pesquisadora sênior no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e Rogerio Feris, cientista principal e gerente do Laboratório de Pesquisa em Computação MIT-IBM. A pesquisa será apresentada na Conferência de Visão Computacional e Reconhecimento de Padrões do IEEE.

Um gargalo no conjunto de dados

Os pesquisadores fizeram grandes progressos no desenvolvimento de modelos generativos de IA que se destacam no processamento de linguagem natural e no raciocínio sobre imagens naturais. Mas menos trabalho tem se concentrado na interpretação de dados multimodais complexos contidos em gráficos, diz Kondic.

No entanto, para empresas de todos os portes e em praticamente todos os setores, a compreensão de gráficos é uma tarefa crucial.

“O setor financeiro prospera com gráficos. Se os modelos de visão computacional conseguirem extrair informações dos gráficos, como descrições de tendências, isso facilita muitos fluxos de trabalho subsequentes”, afirma Joshi.

A falta de dados de treinamento de alta qualidade é um grande obstáculo para o desenvolvimento de Modelos Lineares Verbais (VLMs) capazes de interpretar gráficos com precisão. Muitos conjuntos de dados contêm um número limitado de imagens de gráficos obtidas da internet e, frequentemente, carecem da escala necessária e de informações adicionais para auxiliar o modelo na interpretação dos dados subjacentes.

“Um modelo de visão-linguagem, ao contrário do nosso cérebro, pode precisar ver milhares de exemplos durante o treinamento para reconhecer algo como um gráfico de linhas de forma confiável”, diz Kondic.

Os pesquisadores buscaram superar essas limitações gerando dados sintéticos. Dados sintéticos são gerados artificialmente por algoritmos para imitar as propriedades estatísticas de dados reais.

O conjunto de dados ChartNet contém mais de um milhão de imagens de gráficos de alta qualidade, juntamente com o código correspondente usado para gerar cada gráfico, uma descrição textual e uma tabela com suas informações numéricas. Além disso, cada ponto de dados inclui pares de perguntas e respostas para ensinar o modelo a responder corretamente às perguntas sobre a imagem do gráfico.

“Esses modos adicionais de dados orientam o modelo para conectar e alinhar as diferentes informações que a imagem do gráfico codifica”, diz Kondic.

Geração de dados

Para construir o ChartNet, os pesquisadores criaram um pipeline de geração de dados sintéticos em duas etapas.

Primeiro, o sistema automatizado traduz qualquer conjunto preexistente de imagens de gráficos em código. Em seguida, o sistema aumenta esse código iterativamente para alterar diferentes aspectos de cada gráfico, como tipo de gráfico, valores de dados, tópico, cores, etc.

“Podemos começar com um único gráfico que usamos como ponto de partida e gerar centenas de variações a partir dele. Foi assim que conseguimos construir um conjunto de dados com mais de um milhão de imagens diversas”, explica Kondic.

Eles também incorporaram um processo automatizado de verificação de qualidade para garantir que os dados sintéticos sejam de alta qualidade. Esse processo verifica se o código é executável e se as imagens dos gráficos renderizadas são precisas e nítidas.

“Não queremos apenas gerar amostras diversificadas. Também queremos que as informações sejam apresentadas de forma significativa”, diz ela.

O ChartNet também inclui uma seleção de pontos de dados de gráficos anotados por especialistas humanos. Isso proporciona acesso a tipos adicionais de gráficos e dados de suporte que possuem garantias de validade.

Um profissional poderia usar os dados anotados para ajustar um VLM existente, aumentando ainda mais o desempenho para uma aplicação específica, acrescenta Joshi .

Os pesquisadores testaram o ChartNet treinando a série de modelos Granite Vision da IBM, bem como vários outros modelos de código aberto de diferentes tamanhos, e avaliando-os em diversas tarefas de interpretação de gráficos. O conjunto de dados melhorou a precisão de todos os modelos na reconstrução de gráficos, extração de dados de gráficos, sumarização de gráficos e resposta a perguntas sobre gráficos.

Com o ChartNet, pequenos modelos de código aberto superaram consistentemente modelos comerciais muito maiores.

“Muitos conjuntos de dados de treinamento anteriores se concentravam apenas em responder a perguntas simples sobre um gráfico. Com o ChartNet, tentamos ir além, gerando dados que suportam todos os aspectos de uma compreensão robusta de gráficos”, diz Kondic.

No futuro, os pesquisadores planejam continuar expandindo o ChartNet, incorporando dados com níveis adicionais de complexidade. Eles também querem aproveitar o feedback da comunidade científica.

Esta pesquisa foi financiada, em parte, pelo Laboratório de Pesquisa em Computação MIT-IBM.

Tecnologia Científica

Um gargalo no conjunto de dados

Geração de dados

“Não queremos apenas gerar amostras diversificadas. Também queremos que as informações sejam apresentadas de forma significativa”, diz ela.